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摘要 : 为 了 给 生产 单位 害虫 管理 的 普通 技术 人 员 提 供 简便 易 操 作 的 昆虫 种 类 鉴别 方法 , 本 研究 把 人 类 语音 识别 领域 
的 先进 技术 应 用 于 昆虫 识别 ,提出 了 一 种 新 颖 的 昆虫 声音 自动 鉴别 方法 , 用 声音 参数 化 技术 为 昆虫 声 纹 识 别 设计 了 
一 种 简单 易 行 的 方案 。 声 音信 号 经 过 预 处 理 、 分 段 得 到 一 系列 的 声音 样本 ， 从 声音 样本 提取 Mel 倒 谱系 数 (MFCC ) ， 
并 用 Linde-Buzo-Gray( LBG ) 算 法 对 提取 的 MFCC 进行 矢量 量化 (VQ)， 所 得 码 字 作为 声音 样本 的 特征 模型 。 特 征 参 
数 之 间 的 匹配 用 搜索 最 近邻 的 方法 实现 。 本 文 方法 在 包含 70 种 昆虫 声音 的 库 中 进行 了 试验 , 取得 了 超过 96% 的 识 
别 率 和 理想 的 时 间 性 能 。 试 验 结果 证 明了 该 方法 的 有 效 性 。 
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Abstract : This study aims to provide general technicians who manage pests in production with a convenient 
way to recognize insects. A simple and viable scheme to identify insect voiceprints automatically is 
introduced using a sound parameterization technique that dominates speaker recognition technology. The 
acoustic signal was preprocessed and segmented into a series of sound samples. Mel-frequency cepstrum 
coefficient (MFCC) was extracted from the sound sample, and a feature model was trained using Linde- 
Buzo-Gray algorithm to generate vector quantization (VQ ) codebook from above MFCC. The matching for a 
test sample was completed by finding the nearest neighbour in all the VQ codebooks. The method was tested 
in a database with acoustic samples of 70 different insect sounds. The recognition rate above 96% was 
obtained, and an ideal time performance was also achieved. The test results proved the efficiency of the 
proposed method. 
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尽管 研究 人 员 在 昆虫 声学 通讯 方面 已 做 了 较 多 
的 研究 工作 (Drosopoulos and Claridge , 2005 ) , 但 对 
于 发 声 昆 虫 种 类 的 目 动 鉴别 仍然 是 模式 识别 的 边 绿 
领域 , 在 这 方面 的 文献 也 相对 较 少 。 昆 虫 的 声学 鉴 
定 是 基于 昆虫 具有 发 出 声音 的 能 力 , 这 种 能 力 或 者 
是 出 于 沟通 的 目的 有 意 发 出 , 或 者 是 因 取 食 、 飞 翔 、 
运动 而 产生 。 昆 虫 发 声 机 制 归 结 为 肌肉 的 有 力 收 缩 


导致 发 声 部 位 的 机 械 振动 , 该 声 源 被 装载 并 癌 外 发 
射 。 昆 虫 通过 以 下 3 种 不 同方 式 产 生 声 音 
( Alexander, 1957 ) : 

1 ) 摩擦 ( stridulation ) : 身体 两 个 不 同 部 分 的 摩 
擦 , 通 并 发 出 嘿嘿 声 ( 星 蜂 、 纺 织 奶 、 葡 斯 甲虫- 蛾 、 
蝴蝶 、 蚂 疏 、 毛 虫 .甲壳 虫 幼 虫 等 ) ; 

2) 融 击 (percussion) : 通过 身体 某 个 部 位 如 足 
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(市 翅 旬 斯 ) 、 腹 尖 ( 蝶 螂 ) 、 或 头 ( 红 毛 甸 才 ) 敲 击 地 
面 , 通 稼 发 出 哈 哄 声 或 史 哆 声 ; 

3 ) 振动 (vibration and tremulation ) : 通过 身体 某 
些 部 位 的 振动 发 声 ， 如 未 膀 在 空气 中 的 振动 , 通常 
发 出 喻 喻 声 或 隆隆 声 ( 蚊子 苍蝇 、 黄 蜂 、 蜜 蜂 等 ); 

4) 鼓 室 结 构 (tymbal mechanism ) : 快速 收缩 和 
舒张 豆 室 肌 ( 振动 类 似 辟 面 的 薄 腊 ) ; 通常 发 出 一 系 
列 的 咬 噶 声 ( 蝉 、 叶 蝉 、 角 蝉 、 淋 蝉 )，; 

5 ) 喷气 (air expulsion ) : 通过 身体 收缩 喷 出 气体 
或 液体 , 通 负 发 出 哨 叫 声 或 嘲 嘲 声 ( 星 螂 、 短 角 蝗 ) 。 

昆虫 发 出 声音 与 其 特定 的 行为 模式 相 联系 。 根 据 
不 同行 为 主要 将 其 分 为 以 下 4 大 类 ( Alexander, 1957): 

1 ) 合 唱 (chorus) : 昆虫 群体 同时 发 声 ， 主 要 目 
的 是 召唤 雄 虫 和 上 肉 虫 聚集 到 一 起 ( 蝉 ); 

2 ) 召唤 声 (courtship calling) : 这 是 昆虫 结对 的 
第 一 步 , 用 于 将 较 大 范围 内 雌 虫 吸引 到 邻近 区 域 
(如 蜂 蛇 和 暗 发 出 的 配对 声 ) , 一 些 肉 虫 也 会 发 出 声 
音 以 帮助 雄 虫 确定 其 所 在 位 置 ( 斜 面 蝗 ) 或 对 雄 虫 
作出 应 管 (纺织 娘 ); 

3 ) 求 偶 声 (mating calling) : 雄 虫 在 小 范围 内 发 出 
的 声音 ,目的 是 在 交配 前 吸引 有 反应 的 肉 虫 。 当 雌 虫 
接近 到 1 m 范围 内 时 , 雄 虫 即 由 召唤 声 转变 为 求 侦 声 ; 

4) 争 斗 声 (competing and alarm sound) : 这 种 声 
音 当 昆虫 在 飞行 中 被 捕获 或 扰乱 、 或 雄 虫 通 知 其 他 
雄 虫 侵入 了 它 的 活动 范围 时 发 出 的 宣告 干扰 的 鸣叫 
〈( 通 稼 称 为 警告 .胁迫 或 争斗 声 ) 。 这 种 声音 也 用 于 
问 同 类 对 危险 发 出 报警 ,这 种 抗议 声 有 些 缺 乏 市 奏 
感 , 因为 发 室 的 振动 频率 ( 蝉 ) 或 摩擦 冀 官 ( 蜂 蛇 、 
纺织 奶 ) 因 种 类 而 异 , 这 种 声音 具有 种 类 独特 性 。 

如 有 果 昆 虫 产生 的 生物 声学 信号 遵循 一 致 的 模式 
并 具有 种 类 上 的 独特 性 , 那么 这 些 信号 就 可 以 用 于 
鉴定 和 检测 的 目的 。Riede (1998 ) 表明 昆虫 发 出 的 
声音 能 提供 可 靠 的 分 类 学 线索 ,因而 可 用 于 生物 多 
样 性 度量 。 韩 萍 〈2003 ) 用 频谱 分 析 和 BP 神经 网 
络 对 仓储 害虫 的 声音 识别 进行 了 研究 , 在 包含 米 象 
Sitophilus oryzae Linne. 、 玉 米 象 S. zeamais Motsch. 
和 赤 拟 谷 咨 Tribolium castaneum Herbst 3 种 仓 忠 的 
数据 库 中 取得 了 81% 的 识别 率 。Chesmore 和 
Nellenbach (2001 ) 用 声音 信号 的 时 域 信号 分 析 法 和 
人 工 神经 网 络 对 下 翅 目 昆虫 ( 曝 虫 及 星 螂 ) 的 目 动 
鉴别 进行 了 研究 , 并 在 包含 25 类 英国 直 翅 目 昆 虫 
的 库 中 进行 了 测试 , 取得 较 高 的 识别 率 ; Chesmore 
《2004) 又 用 同样 方法 精确 识别 出 在 较 高 干扰 的 目 
然 环 境 下 的 4 类 英国 直 翅 目 昆 虫 鸣 叫 声 ; Pinhas 等 


(2008 ) 则 对 红 棕 象 甲 Rhychophorus ferrupgineus 
(Oliver) 自动 声 首 识别 进行 了 研究, 最 后 分 别 用 矢 
量 量化 (vector quantization ，VOQ ) 技术 及 高 斯 混合 模 
型 ( gaussian mixture modeling，GMM ) 技术 实现 识 
别 ; Ganchev 等 (2007) 用 主 谐 波 、 振 劲 持续 时 间 、 以 
及 23 个 线性 倒 谱 系数 (linear frequency cepstral 
coefficients ，LFCCs) 经 归 一 化 构成 声音 片段 的 特征 
器 量 , 分 别 用 似 然 神经 网 络 (probabilistic neural 
network ，PNN) , 混合 高 斯 模型 (GMM), 隐 马 尔 可 
夫 模 型 (hidden markov model，HMM ) 分 类 器 进行 识 
别 , 在 包含 了 313 种 昆虫 ( 蜂 、 昂 蜂 和 纺织 奶 ) 的 北 
美 鸣 虫 库 (singing insects of the North America 
collection ，SINA ) 中 进行 了 试验 验证 , 取得 了 理想 
的 识别 精度 。 

昆虫 声音 识别 的 相关 应 用 领域 包括 : 特定 区 域 
的 自动 环境 检测 和 生物 多 样 性 分 类 与 编 日 ; 濒危 物 
种 的 生存 能 力 分 析 ; 生存 环境 健康 程度 和 恶化 评 
佑 ,因为 某 些 物种 是 居住 环境 质量 和 环保 的 标志 ; 
农业 害虫 的 监测 和 预警 ; 用 非 专家 方式 识别 和 分 类 
相当 范围 的 昆虫 种 类 。 

本 研究 用 人 类 语音 处 理 中 行 之 有 效 的 方法 , 来 
解决 昆虫 声学 检测 中 遇 到 的 挑战 性 课题 。 我 们 认为 
在 上 自动 语音 /说 话 人 识别 和 昆虫 声学 识别 之 间 的 交 
叉 应 用 是 有 根据 的 , 因为 两 者 有 相同 的 目的 ,只 是 
在 发 出 声音 的 机 制 上 有 所 不 同 。 此 处 把 语音 处 理 任 
务 中 涉及 的 信号 处 理 方法 进行 了 调整 以 适应 于 昆虫 
识别 的 具体 应 用 。 参 考 语音 识别 的 特征 提取 方法 ， 
本 文 的 参数 化 技术 为 昆虫 声学 识别 应 用 作 了 专门 设 
计 。 本 文 方法 在 仓储 昆虫 取 食 和 行动 的 声音 、 土 壤 
无 湖 椎 动物 的 取 食 和 移动 声音 、 树 木 上 昆虫 取 食 与 
移动 声音 、 作 物 上 昆虫 取 食 与 移动 声音 以 及 昆虫 翅 
膀 和 腹部 振动 的 声音 混合 的 数据 库 中 进行 了 测试 ， 
取得 了 理想 的 识别 效果 。 


1 材料 与 方法 


1.1 声音 样本 来 源 和 预 处 理 

本 文 试验 所 用 材料 采用 美国 农业 部 Richard 
Mankin 学 科 组 录制 的 各 类 昆虫 声音 库 ( Mankin， 
2009 ) 以 及 本 诛 题 组 录制 的 一 些小 索 声 音 文件 。 这 
些 录制 的 昆虫 声音 文件 长 度 介 于 3 ~ 60 s 之 间 , 过 
长 的 声音 文件 直接 进行 特征 提取 一 方面 会 增加 计算 
过 程 的 处 理 负 人 答 , 必 一 方面 背景 噪声 作为 声音 的 一 
部 分 进行 分 析 会 影响 识别 精度 ， 取 这 些 样本 中 包含 
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昆虫 发 声 时 的 活跃 状态 1.2 s 的 片段 , 便 足 以 提取 
出 声音 的 特征 参数 。 因 此 , 我 们 把 声音 文件 进行 预 
处 理 , 并 把 每 一 个 声音 文件 进行 分 割 , 删除 无 用 成 
分 后 划分 成 若干 个 样本 , 由 这 些 划 分 得 到 样本 集合 
组 成 新 的 数据 库 , 本 文 试验 在 预 处 理 和 分 割 后 的 样 
本 库 上 进行 。 

假定 输入 的 昆虫 声音 信和 号 为 经 过 采样 和 量化 的 
数字 信和 号， 预 处 理 主 要 包括 振幅 归 一 化 、 样 本 分 割 
1.2 声音 信和 号 归 一 化 

按 信号 幅度 绝对 值 的 最 大 值 做 归 一 化 处 理 , 得 
到 幅 值 范围 统一 的 信和 号， 即 : 

(i) = «(i)/ max «(i) (1) 

其 中 x( 引 为 原 信号 , x(i) 为 归 一 化 后 的 信号 ， 
n 为 信号 长 度 。 
1.3 ”声音 信号 分 着 

分 割 信号 为 一 定 长 度 范 围 内 的 帧 ,提取 最 能 体 
现 其 特点 的 部 分 ,以 降低 信号 长 度 , 减少 运算 量 。 
分 割 基 于 声学 行为 的 探测 需 , 估计 天 个 连续 采样 点 
的 经 1 -az (a=0.9375) 预 加 重 的 短 时 能 量 , 即 : 








E(k) = y(n( 和 + 二 - ax(EL +i — 1)) 


i (2) 

其 中 x 是 输入 信号 ,大 是 帧 号 , 工 是 一 个 预定 义 
的 步 距 , 该 值 也 决定 了 两 个 连续 帧 的 交 释 程度， 

F=|(N-K+L)/L | (3) 
是 包含 N 个 采样 点 的 音频 信号 的 总 帧 数 ,，| | 表示 问 
下 取 整 。K 为 每 一 帧 包含 的 采样 点 数 。 边 界 的 精度 
取决 于 步 距 工 的 大 小 , 本 研究 取 L=80( 在 25 000 Hz 
的 采样 频率 下 , 相当 于 3. 2 ms 的 时 间 分 辨 率 ) ,这 
是 为 了 取得 计算 代价 和 时 间 分 辩 率 之 间 比 较 好 的 折 
囊 。 每 一 帧 的 窗 宽 取 K =240, 即 对 应 帧 持续 时 间 
为 9.6 ms。 我 们 用 短 时 能 量 序列 中 的 最 大 值 Emax 
的 10% 作为 靖 值 训 , 小 于 翅 的 信号 看 作 是 静音 , 相 
邻 两 段 静音 之 间 的 数据 为 一 个 样本 ， 如果 该 段 样 本 
持续 时 间 过 短 , 便当 作 噪 音 滤 除 , 样本 最 大 长 度 取 
1.2 s， 如 果 超 过 1.2 s, 则 只 截取 以 窗 内 最 大 值 为 
中 心 的 1.2 s 信号 作 样 本 。 

如 图 1 所 示 , 长 度 为 6 s 的 原音 频数 据 经 过 归 
一 化 , 将 被 分 割 为 3 个 样本 来 处 理 。 


ww 





图 1 声音 采样 数据 分 割 示意 图 


Fig.1 The segmentation of a sound sample 


2 有 目 动 昆虫 识别 


图 2 给 出 了 本 系统 所 采用 的 昆虫 声 纹 识别 过 程 
的 流程 图 。 


2.1 特征 提取 

声音 特征 参数 可 以 是 能 量 、 基 音频 率 、 共 振 峰 值 
等 语音 参数 ,目前 在 声音 识别 中 较为 常用 的 特征 参 
数 为 线性 预测 倒 谱 系统 LPCC 和 Mel 倒 谱 系 
数 ( MFCC) 。 二 者 都 是 将 声音 信号 变换 到 倒 谱 域 上 ， 
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图 2 基于 VQ 的 昆虫 声 纹 识别 流程 图 


Fig.2 Flowchart of the insect acoustic recognition based on VO 


前 者 是 从 发 声 模型 角度 出 发 ,利用 线性 预测 编码 
(LPC) 技术 求 倒 谱系 数 ; 后 者 则 构造 人 的 听觉 模 
型 人 的 听觉 系统 是 一 个 特殊 的 非 线 性 系统 ， 它 啊 
应 不 同 频率 信号 的 灵敏 度 是 不 同 的 , 基本 上 是 一 个 
对 数 的 关系 。MFCC 充分 利用 人 耳 这 种 特殊 的 感知 
特性 ， 以 声音 通过 该 模型 (滤波 需 组 ) 的 输出 为 声学 
特征 ， 直 接 通 过 离散 傅 里 时 变换 (DFT ) 进行 变换 。 
MFCC 与 LPCC 相 比 具有 其 优势 MFCC 采用 Mel 
频 标 , 突出 有 利于 识别 的 低频 信息 ,而 屏蔽 了 包含 
于 高 频 部 分 的 噪声 干扰 ,基于 线性 频 标 的 LPCC 无 
此 特点 ; MFCC 无 任何 前 提 假 设 , 而 LPCC 假定 所 
处 理 的 信号 为 自 回 归 信 号 , 对 于 动态 较 强 的 信号 ， 
或 噪声 存在 时 , 这 一 假设 并 不 成 立 。MFCC 和 线性 
频率 的 转换 关系 (如 图 3 ) 是: 

f., =2595log (1+ -上 (4) 
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图 3 Mel 频 标 与 线性 频率 的 关系 
Fig.3 The relation between Mel pitch and frequency 


鉴于 上 述 因 素 , 本 文采 用 MFCC 提取 特征 参 
数 ，MFCC 的 计算 过 程 如 图 4 所 示 。 

1) 预 加 重 : 功率 谱 随 频率 的 增加 而 减 小 , 其 大 
部 分 能 量 集中 在 低频 范围 内 。 这 束 造 成 消息 信号 高 
频 端的 信 噪 比 可 能 降 到 不 能 允许 的 程度 。 预 加 重 的 
目的 是 提升 高 频 部 分 , 使 信号 的 频谱 变 得 平坦 ,以 
便于 进行 频谱 分 析 或 声 道 参数 分 析 。 预 加 重 在 采样 
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Triangle bandpass filters 








差分 倒 频谱 参数 
Computing differential Mel- 
frequency cepstral coefficients 


MFCC 特征 参数 
MFCCs 


图 4 MFCC 流程 图 
Fig.4 Flowchart of the MFCC extraction 

/量化 之 后 进行 , 用 具有 6 dB/ 倍 频 程 的 提升 高 频 特 
性 的 预 加 重 数 字 滤 波 器 实现 , 其 z 传递 函数 为 : 

H(z) = 1 -az (5) 

上 式 中 , a 值 接近 于 1, 本 文 取 a=0.9375。 

2) 加 窗 : 声 纹 信号 的 准 平稳 特性 , 使 得 只 在 短 
时 段 上 才 可 视 为 是 一 个 平稳 过 程 。 可 以 用 平稳 过 程 
的 分 析 方 法 进行 分 析 , 因此 需 将 声音 信号 划分 为 一 
个 一 个 的 短 时 段 , 每 一 短 时 段 称 为 一 帧 ,为 从 声音 
信号 中 切取 含有 N 个 样本 的 声音 信号 波形 , 需要 用 
时 间 窗 函数 乘 以 原来 的 语音 信 号 。 而 矩形 窗 的 采用 
使 得 每 一 帧 信号 在 起 始点 和 终点 处 发 生 突 变 , 不 再 
连续 ， 从 而 导致 Gibbs 现象 的 出 现 。 为 了 减 小 起 始 
点 和 终点 处 的 不 连续 性 , 可 以 改变 窗 函 数 的 时 域 特 
性 , 使 其 在 起 始点 和 终点 处 逐渐 变 为 零 ， 如 
Hamming 窗 ( 即 升 余弦 窗 ) : 
2T 


nl 





wy = 0.54 - 0. 46cos( ) n=0,1,.…,N-1 


(6) 
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其 中 N 称 作 帧 长 ,为 时 间 窗 的 窗 宽 。 为 尽 可 能 
不 丢失 语音 信号 动态 变化 的 信息 , 常 采 用 滑动 窗 ， 
即 帧 与 帧 之 间 有 一 定 的 重 车 。 
3) 取 帧 长 N =256 点 , 对 每 一 帧 作 FFT 变换 ， 
则 第 m 帧 声 纹 的 频谱 为 : 
Ee 27nk 


SP m) = Ds(nm)exp( -fH ) (7) 


上 式 中 , {s(n,m)1n=0,1,…,255| 为 第 m 帧 
声 纹 的 256 个 采样 点 。 对 频谱 取 模 平方 就 会 得 到 离 
散 功 率 谱 。 

4) 用 M 个 Mel 市 通 滤 波 顺 (如 图 5) 进行 滤波 ， 
得 到 一 组 系数 ml ,m2 ，…… 。 滤 波 需 在 频 域 上 为 
简单 的 三 角形 , 在 Mel 频率 轴 上 是 均 义 分布 的 。 在 
本 文中 , 滤波 需 的 个 数 M 为 20。 由 于 每 一 个 频 于 
中 的 分 量 作 用 在 人 耳 中 是 到 加 的 , 所 以 将 每 个 滤波 
融 频 市 市 内 的 能 量 进行 琶 加 。 


Mel- 空 间 滤波 器 组 
Mel-spaced filterbank 
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图 5 Mel 滤波 策 组 
Fig.3 Bank of Mel filters 


5 ) 将 每 个 滤波 絮 的 输出 取 对 数 , 得 到 相应 频带 
的 对 数 功 率 谱 , 为 避免 复数 运算 , 利用 反 离 散 余 弦 
变换 得 到 工 个 MFCC, 其 中 M 是 三 角 滤 波 虎 的 个 
数 。 在 实际 应 用 中 , 并 不 需要 取 全 部 维 数 的 MFCC ， 
试验 表明 最 前 若干 维 的 MFCC 对 识别 的 区 分 性 较 
大 , 通常 取 12 维 的 MFCC 即 可 ( 甄 斌 等 ，2001 ) 。 
MFCC 为 


GC. = > lnx’(k)cos[m(h -0.5)n/M| 
bE— | WF (8) 
其 中 , x'(%) 为 第 个 滤波 器 的 输入 功率 谱 。 
标准 的 MFCC 只 反映 了 语音 参数 的 静态 特性 ， 
一 阶 差分 MFCC( AMFCC ) 是 一 种 动态 参数 ,能 反 


映 了 语音 参数 的 动态 特性 ， 有 较 好 的 鲁 棒 性 。 差 分 
参数 的 计算 公式 为 : 


d{(n) = . Dix ce(n+i (9) 


> 

其 中 c 是 MFCC 参数 , d 为 一 阶 差 分 MFCC，, k 
为 常数 , 通常 取 2。 

2.2 矢量 量 

矢量 量化 (VQ) 是 20 世纪 80 年 代 发 展 起 来 的 
信 源 压缩 编码 技术 , 它 具 有 很 好 的 分 类 特性 , 在 语 
音 编码 、 语 音 识 别 \ 语 音 合成 和 图 像 数 据 压缩 等 领域 
有 着 广泛 的 应 用 。 基 于 VQ 法 的 声 纹 识别 , 特别 是 
小 样本 库 声 纹 识别 无 需 考 虑 复杂 的 统计 模型 和 复 洒 
的 时 间 归 整 问题 ， 其 运算 过 程 也 较为 简单 ， 因 此 ， 
VQ 法 在 声 纹 识 别 领域 有 着 广 泛 的 应 用 (Burtion et 
al., 1985; He et al., 1999 ) 。 

本 研究 采用 LBG 算法 ( Linde-Buzo-Gray 
algorithm ) 形成 代表 声 纹 特征 的 VQ 码 本 , LBG 算法 
是 由 Linde Y，Buzo A 和 Gray RM 三 人 提出 的 
(Linde et al., 1988)。 此 算法 按 最 近邻 准则 用 初始 
码 本 中 的 各 个 码 字 对 训练 序列 进行 Voronoi 划分 ， 
从 而 形成 J 个 子 集 , 每 一 子 集 为 一 类 , J 为 码 本 容 
量 ; 计算 各 类 的 形 心 和 平均 失真 ,迭代 计算 下 去 ， 
不 断 对 人 码 本 进行 修正 直到 性 能 满足 要 求 或 不 能 再 有 
明显 改进 为 止 。VQ 码 本 形成 的 LBG 算法 ( 杨 行 峻 
和 捞 惠 生 ,， 1995 ) 具体 过 程 为 : 

(1) 输 入 形成 码 本 所 需 的 全 部 特征 矢量 XX, 
的 集合 记 作 5; 

(2) 设 置 最 大 迭代 次 数 N, 畸变 初 值 D = o ， 
畸变 改进 贱 值 6 ,迭代 初 值 n=1; 

(3) 设 置 个 码 字 的 初 值 陪 , ,，…, 六 ; 

(4) 根 据 最 近邻 准则 将 5 分 成 J 个 子 集 $1，, 5;， 
…, $7 , 当 X e $i 时 , 有 : 

d(X, Ye ) < d(X, 到 ) 

其 中 d 为 欧 氏 距离 。 

(5) 计 算 总 畸变 D” 


J 


Dp" = > 5 dx,Y) (11) 


k=1 XeSe-l 
(6) 计 算 畸 变 改 进 国 值 5 
AD _ |p” -7D"| 
D" D” 
(7) 计 算 新 码 字 说 ， 多 ，… 
的 聚 类 中 心 ; 
(8) 判 断 6” < 6 是 否 成 立 ， 如 有 果 成 立 , 转 入 步 





Vi,izk (10) 


5" = (12) 


,站 ， 即 求 各 类 新 
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又 (10) , 反之 , 转 和 信步 又 (9 ) ; 
(9) 判 断 半 是 否 小 于 最 大 闪 代 次 数 N， 是， 则 
令 n=n+1, 转 入 步骤 (4), 否 , 则 转 入 步骤 (10); 
(10) 送 代 终 止 , 输出 天 ,二 ,，…, 六 作为 最 终 码 字 。 
本 文中 初始 码 本 的 选择 采用 了 分 裂 法 , 20 组 
滤波 冀 输 出 的 MFCC 作为 特征 天 量 集合 S。 
2.3 ”特征 匹配 
用 于 测试 的 声 纹 数据 同样 要 经 过 特征 提取 过 程 
得 到 原始 特征 天 量 即 MFCC, 然后 计算 特征 天 量 与 
各 码 本 的 距离 ,该 距离 为 各 帧 声音 的 原始 特征 天 量 
与 码 本 中 码 字 最 小 距离 的 总 和 ， 即 : 
d, = 2, min Dx — l<n<N (13) 


;=1 1<J<J £1 
其 中 , 7 为 测试 样本 提取 得 到 的 MFCC 天 量 数 ， 
J 为 训练 得 到 的 VQ 码 本 中 天 量 个 数 , 工 为 MFCC 及 
VQ 和 天 量 的 长 度 ，N 为 库 中 模板 个 数 ，d; 为 测试 样 
本 特征 天 量 与 第 个 VQ 码 本 的 距离 , 在 n=1,…， 
N 中, 使 4 当 取 最 小 值 时 的 n 对 应 的 昆虫 即 为 识 
别 结果 。 
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3 识别 试验 结果 


以 上 算法 在 以 Matlab 为 平台 的 PC 机 上 进行 了 
测试 ,试验 所 用 昆虫 声 纹 数据 库 中 共 录 制 了 70 种 
昆虫 发 出 的 不 同 声 首 , 经 过 预 处 理 和 分 割 共 得 到 
488 个 声音 样本 , 其 中 每 种 声音 的 第 一 个 样本 用 于 
训练 得 到 VQ 码 本 ,其 余 样本 用 于 测试 。 表 1 显示 
了 VQ 分 群 数 并 分 别 为 8,，16 , 32, 64 时 所 得 的 识别 
结果 。 从 表 1 可 知 , 随 着 VQ 分 群 数 的 增加 ，VQ 训 
练 时 间 及 匹配 时 间 成 倍增 加 ， 而 识别 率 并 没有 显著 
的 提高 ,因此 , 红 合 考虑 识别 时 间 性 能 和 识别 正确 
率 , 取 并 = 16 较为 理想 。 

表 2 为 本 文 试验 所 用 数据 库 中 各 类 别 识别 性 能 
比较 , 库 中 录制 声音 分 为 仓储 昆虫 活动 和 取 食 声音 
8 种 土壤 无 痛 椎 动物 活动 和 取 食 声音 16 种 土壤 
昆虫 防御 性 鸣叫 声 2 种 树林 昆虫 活动 和 取 食 声音 
14 种 \ 作 物 昆 虫 活动 和 取 食 声 音 1 种 、 翅 膀 或 腹腔 


振动 声音 22 种 ,小雪 声音 7 种 。 


表 1 本 文 昆虫 声 纹 自动 鉴别 算法 性 能 


Table 1 Performance of the proposed automatic acoustic insect identification algorithm 


VQ 分 群 数 Number of VO groups 8 
预 处理 时 间 Preprocessing time (ms) 364 
MFCC 特征 提取 时 间 MFCC feature extraction time (ms) 370 
VQ 训练 时 间 VQ training time (ms) 19 

匹配 时 间 Matching time (ms) 103 


识别 精度 Recognition accuracy (%) 95.41 


16 32 64 
364 364 364 
370 370 370 
47 75 134 
200 350 1 114 
96.17 96.26 95.91 


表 2 各 类 昆虫 声 纹 识 别 率 比 较 


Table 2 Comparison among recognition accuracy of different kinds of insect sounds 


昆虫 声音 种 类 k=16 k=32 k=64 
Insect sound types 
仓储 屁 忠 活动 和 取 食 声 . 0.980 1. 000 0.99 1.000 
Stored product insect movement and feeding sounds 
圭一 无 朋 椎 动物 活动 和 取 食 声 3 1.000 1.000 1. 000 1. 000 
Movement and feeding sounds of soil invertebrates 

训 j 御 性 鸣叫 声 
土壤 屁 忠 防御 FE 3 1 天 ， ， 0.600 0.636 0. 867 0.909 
Defensive stridulation of soil insects 
秽 林 昆虫 活动 和 取 食 户 . . 1.000 1. 000 1. 000 1. 000 
Movement and feeding sounds of insects in wood 
作物 昆虫 活动 和 取 食 庙 . . 1.000 1. 000 1. 000 1. 000 
Movement and feeding sounds of insects in plants 
过 膀 或 腹腔 振动 声 ， 0. 889 0.903 0. 898 0. 876 
Wing and abdominal vibration sounds 
小 寇 声音 Scolytidae sounds 0.872 0.971 0.986 1.000 


k= VQ 分群 数 Number of VQ groups. 
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试验 表明 , 同类 昆虫 的 上 肉 虫 与 雄 虫 发 出 的 声音 
所 提取 的 特征 比较 接近 (尤其 是 翅膀 或 腹腔 振动 声 
音 ) ， 有 时 甚至 难以 区 分 并 影响 了 最 终 的 识别 精度 ; 
羽 一 方面 也 说 明 , 用 本 文 方法 提取 的 特征 能 代表 昆 
虫 声 纹 的 本 质 属性 ,同类 昆虫 的 雌 虫 和 雄 虫 虽然 在 
生理 结构 上 存在 差异 , 但 总 体 的 发 声 机 制 还 是 相近 
的 , 因此 声 纹 提 取 的 特征 信息 也 比较 接近 。 


4 ”结论 与 讨论 


本 文 借鉴 了 人 类 语音 识别 方法 中 所 采用 的 模式 
识别 技术 , 通过 信号 参数 化 方法 来 实现 昆虫 声 纹 的 
目 动 鉴定 和 识别 。 该 方法 表现 较 高 的 识别 精度 与 较 
理想 的 时 间 性 能 。 该 方法 可 以 直接 扩展 到 其 他 能 发 
出 固有 声音 的 生物 的 种 类 鉴别 , 在 非 侵犯 性 声学 环 
境 检 测 方面 存在 应 用 前 景 。 

本 研究 对 仓储 昆虫 活动 和 取 食 声音 , 土壤 无 消 
椎 动 物 活 动 和 取 食 声音 , 土壤 昆虫 防御 性 鸣叫 声 ， 
树林 昆虫 活动 和 取 食 声音 , 作物 昆虫 活动 和 取 食 声 
音 ` 翅 膀 或 腹腔 振动 声音 以 及 小 翅 声 音 等 70 种 仓 虫 
进行 了 识别 试验 , 总 的 识别 率 超过 96% , 在 包含 70 
种 昆虫 的 声 纹 库 中 作 一 次 匹配 用 时 仅 需 0.2 s 磊 
右 , 试验 表明 该 方法 切实 可 行 , 有 和 较 大 的 实用 推广 
价值 。 

同类 昆虫 的 上 肉 虫 与 雄 虫 发 出 的 声音 在 本 人 研究 中 
难以 区 分 , 说 明 本 文 提出 的 方法 尚 不 能 达到 同类 屁 
虫 的 性 别 识别 精度 , 尤其 是 对 翅膀 或 腹腔 振动 声 
音 。 那 么 , 目 然 界 中 昆虫 翅膀 或 腹腔 振动 声音 是 否 
具有 吸引 配偶 的 意义 ? 或 者 自然 界 中 昆虫 吸引 配偶 
的 声 首 特征 是 否 需 要 更 好 的 分 析 方 法 ?这些 问题 都 
是 昆虫 的 性 生态 学 感 兴趣 的 。 

此 外 , 本 文 试验 录制 的 声音 文件 都 只 包括 单个 
昆虫 发 出 的 声音 , 将 来 我 们 将 从 多 种 混合 声音 包括 
背景 声音 中 对 某 一 种 或 几 种 昆虫 的 “存在 ”和 “ 状 
态 的 检测 与 判断 进行 探索 与 研究 。 


参考 文献 (References) 


Alexander R, 1957. Sound production and associated behavior in 
insects. The Ohio Journal of Science, 57(2).: 101 - 113. 

Burtion DK, Shore JE, Burk JT, 1985. Isolated word speech recognition 
using multi-VQ code books. FF Trans. ASSP, 33 (4): 837 
一 849. 

Chesmore D, 2004. Automated bioacoustic identification of species. 
Annals of the Brazilian Academy of Sciences, 76(2).: 435 -440. 
Chesmore ED, Nellenbach C, 2001. Acoustic methods for the automated 
detection and identification of insects. Acta Horticulturae, $602: 223 

-231. 

Drosopoulos S, Claridge M, 2005. Insect Sounds and Communication: 
Physiology, Behaviour, Ecology， and Evolution. Contemporary 
Topics in Entomology. CRC Press, Boca Raton, FL. $52 pp. 

Ganchev T, Potamitis I, Fakotakis N, 2007. Acoustic monitoring of 
singing insects. In: 2007 IEEE International Conference on 
Acoustics, Speech and Signal Processing, IV. Honolulu. 721 -724 

Han P, 2003. Voice-pattern recognition of storedproducted insects. 
Computer Engineering, 29(22): 151 -154. [ 韩 萍 ，2003. 仓储 
物 害 虫 声音 的 模式 识别 . 计算 机 工程 , 29(22) : 151 -154] 

He JL, Liu L, Palm G, 1999. A discriminative training algorithm for 
VQ-based speaker identification. JEEE Transactions on Speech and 
Audio Processing, 7(3).: 353 -356. 

Linde Y, Buzo A, Gray RM, 1988. An algorithm for vector quantizer 
design. JIEEE Transactions on Communications, 28(1).: 84 -95. 

Mankin R, 2009. Sound Library. http://www. ars. usda. gov/pandp/ 
docs. htm? docid = 10919#albopictus. 

Pinhas J], Soroker V, Hetzroni A, Mizrach A, Teicher M, Goldberger J, 
2008. Automatic acoustic detection of the red palm weevil. 
Computers and Electronics in Agriculture, 63(2). 131 - 139. 

Riede K, 1998. Acoustic monitoring of Orthoptera and its potential for 
conservation. Journal of Insect Conservation, 2: 217 -223. 

Yang XJ, Chi HS, 1995. Voice Digital Signal Processing. Publishing 
House of Electronics Industry，Beijing. 454 pp. [ 杨 行 峻 , 述 惠 生 ， 
1995. 语音 信号 数字 处 理 . 北京 : 电子 工业 出 版 社 . 454 页 ] 

Zhen B, Wu XH, Liun ZM, Chi HS, 2001. On the importance of 
components of the MFCC in speech and speaker recognition. Acta 
Scientiarum Naturalium Universitatis Pekinensis, 37 (3 ):， 371 - 
378. [ 王 斌 ， 吴 簿 宏 , 刘 志 敏 , 迟 惠 生 , 2001. 语音 识别 和 说 话 
人 识别 中 各 倒 谱 分 量 的 相对 重要 性 . 北京 大 学 学 报 (自然 科学 
版 ) ,37(3) : 371 -378] 

(责任 编辑 : 表 德 成 ) 


